Spark Streaming এর Transformations এবং Actions

Spark Streaming এর মৌলিক ধারণা - অ্যাপাচি স্পার্ক (Apache Spark) - Big Data and Analytics

319

Apache Spark Streaming হল Apache Spark এর একটি কম্পোনেন্ট যা রিয়েল-টাইম ডেটা প্রসেসিং এবং স্ট্রিমিং ডেটার উপর কাজ করতে ব্যবহৃত হয়। Spark Streaming স্ট্রিমিং ডেটাকে ব্যাচের আকারে ডিস্ট্রিবিউটেড ডেটা প্রসেসিংয়ের জন্য নিয়ে আসে। স্ট্রিমিং ডেটা কিভাবে প্রসেস করা হবে তা নির্ধারণ করার জন্য Transformations এবং Actions ব্যবহৃত হয়।

এই টিউটোরিয়ালে, আমরা Spark Streaming এর Transformations এবং Actions নিয়ে আলোচনা করব এবং কীভাবে তারা স্ট্রিমিং ডেটার উপর কার্যকরী অপারেশন সম্পাদন করে তা দেখব।

Spark Streaming Overview

Spark Streaming একটি স্ট্রিমিং ডেটা প্রসেসিং সিস্টেম, যা ইনপুট ডেটা স্ট্রিমকে ছোট ছোট ব্যাচে বিভক্ত করে এবং প্রতিটি ব্যাচকে স্পার্ক ক্লাস্টারের মাধ্যমে প্রসেস করে। Spark Streaming সাধারণত DStream (Discretized Stream) ব্যবহার করে, যা একটি RDD এর উপরে নির্মিত একটি ডেটা স্ট্রাকচার। DStream এর মাধ্যমে আপনি স্ট্রিমিং ডেটার উপর ট্রান্সফরমেশন এবং অ্যাকশন অপারেশন করতে পারেন।

Key Features of Spark Streaming:

Real-time Data Processing: রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য স্ট্রিমিং ডেটাকে ছোট ছোট ব্যাচে ভাগ করে।
Fault Tolerance: Spark Streaming RDD-এর মতো ফল্ট টলারেন্ট, অর্থাৎ ডেটা লস না হয়ে পুনরুদ্ধার করা সম্ভব।
Integration with Spark Core: Spark Streaming সহজেই Spark Core, Spark SQL, এবং Spark MLlib এর সাথে ইন্টিগ্রেট করা যায়।
Windowing: এটি একটি বিশেষ ফিচার যা স্ট্রিমিং ডেটার নির্দিষ্ট উইন্ডোতে অপারেশন করতে সহায়তা করে।

Spark Streaming Transformations

Transformations হল স্ট্রিমিং ডেটার উপর সঞ্চালিত অপারেশন যা নতুন DStream তৈরি করে। এটি সাধারণত lazy evaluation হয়, অর্থাৎ ট্রান্সফরমেশনটি তখনই কার্যকরী হয় যখন একটি Action (যেমন collect(), count()) চালানো হয়।

Common Spark Streaming Transformations

map()

map() স্ট্রিমিং ডেটার প্রতিটি উপাদানের উপর একটি ফাংশন প্রয়োগ করে এবং একটি নতুন DStream তৈরি করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val mappedLines = lines.map(line => line.toUpperCase)
mappedLines.print()

এখানে, map() ফাংশন প্রতিটি লাইনে একটি পরিবর্তন (uppercase) প্রয়োগ করছে এবং একটি নতুন DStream তৈরি করছে।

filter()

filter() ট্রান্সফরমেশনটি DStream থেকে শুধুমাত্র সেই উপাদানগুলি নির্বাচন করে যা একটি নির্দিষ্ট শর্ত পূর্ণ করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val filteredLines = lines.filter(line => line.contains("Spark"))
filteredLines.print()

এখানে, filter() ফাংশনটি সেই লাইনের উপর ফিল্টার প্রয়োগ করছে যা "Spark" শব্দটি ধারণ করে।

flatMap()

flatMap() ফাংশনটি প্রতিটি উপাদান থেকে একাধিক আউটপুট তৈরি করে, যার ফলে flat আউটপুট পাওয়া যায়। এটি map() এর মতো, তবে এখানে একাধিক উপাদান ফেরত দেওয়া হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(line => line.split(" "))
words.print()

এখানে, flatMap() ফাংশনটি প্রতিটি লাইনের শব্দগুলো আলাদা করে একটি ফ্ল্যাট আউটপুট তৈরি করেছে।

reduceByKey()

reduceByKey() একটি দম্পতি (key, value) ডেটা নিয়ে কাজ করে এবং একটি নির্দিষ্ট অপারেশন প্রয়োগ করে, যেমন একটি key এর জন্য মান যোগ করা। এটি সাধারণত key-value pairs ডেটার জন্য ব্যবহৃত হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val wordCounts = lines.flatMap(line => line.split(" "))
  .map(word => (word, 1))
  .reduceByKey(_ + _)
wordCounts.print()

এখানে, reduceByKey() ফাংশনটি শব্দের সংখ্যা গুণে একটি "word count" তৈরি করছে।

window()

window() ফাংশনটি একটি নির্দিষ্ট সময়ের উইন্ডোতে ডেটা অপারেশন করার জন্য ব্যবহৃত হয়। এটি একটি স্থির সময়ের ইন্টারভ্যাল তৈরি করে এবং তার মধ্যে থাকা ডেটা প্রসেস করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val windowedLines = lines.window(Seconds(30), Seconds(10))
windowedLines.print()

এখানে, window() ফাংশনটি 30 সেকেন্ডের জন্য একটি উইন্ডো তৈরি করেছে এবং প্রতি 10 সেকেন্ডে তা পুনরায় উইন্ডো করবে।

Spark Streaming Actions

Actions হল সেই অপারেশন যা DStream এর উপর কার্যকরী হয় এবং এর মাধ্যমে ফলাফল বা আউটপুট পাওয়া যায়। Spark Streaming এ Actions এর মাধ্যমে আপনি স্ট্রিমিং ডেটার ফলাফল দেখতে এবং ডেটা প্রসেসিং শুরু করতে পারেন।

Common Spark Streaming Actions

print()

print() একটি Action যা DStream এর উপাদানগুলি আউটপুটে প্রিন্ট করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(line => line.split(" "))
words.print()

এখানে, print() ফাংশনটি DStream এর প্রতিটি শব্দ প্রিন্ট করবে।

count()

count() Action ফাংশনটি DStream এর উপাদানগুলির সংখ্যা গণনা করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val wordCounts = lines.flatMap(line => line.split(" ")).count()
wordCounts.print()

এখানে, count() ফাংশনটি স্ট্রিমের মধ্যে থাকা শব্দের মোট সংখ্যা গণনা করবে।

save()

save() Action ফাংশনটি DStream এর ডেটা ডিস্ক বা ডেটাবেসে সেভ করতে ব্যবহৃত হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
lines.saveAsTextFiles("output_directory")

এখানে, saveAsTextFiles() ফাংশনটি স্ট্রিমিং ডেটা ডিস্কে একটি ফাইল হিসেবে সেভ করবে।

foreachRDD()

foreachRDD() ফাংশনটি প্রতিটি RDD এর উপর কার্যক্রম চালায়, যা প্রতি ব্যাচে প্রসেস করা ডেটা নিয়ে কাজ করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
lines.foreachRDD { rdd =>
  println("Number of records in this batch: " + rdd.count())
}

এখানে, foreachRDD() ফাংশনটি প্রতিটি ব্যাচের ডেটা গণনা করে।

Conclusion

Spark Streaming একটি শক্তিশালী টুল যা রিয়েল-টাইম ডেটা প্রসেসিংকে সম্ভব করে তোলে। Transformations এবং Actions হল Spark Streaming এর প্রধান কার্যক্রম যা স্ট্রিমিং ডেটার উপর কার্যকরী অপারেশন এবং ফলাফল প্রদান করে। Transformations (যেমন map(), filter(), reduceByKey()) স্ট্রিমিং ডেটার পরিবর্তন করতে ব্যবহৃত হয়, যখন Actions (যেমন print(), count(), save()) ডেটার আউটপুট বা ফলাফল তৈরি করে।

Spark Streaming এর মাধ্যমে আপনি রিয়েল-টাইম ডেটা প্রসেসিং এবং বিশ্লেষণ করতে পারেন, যা পারফরম্যান্স এবং স্কেলেবিলিটির জন্য অত্যন্ত উপযুক্ত।

Content added By

Rezwan Siddiki Tamim

Spark Streaming কী এবং কেন গুরুত্বপূর্ণ? DStream (Discretized Stream) এর ধারণা Streaming Data Sources (Kafka, Flume, HDFS)

Spark Streaming এর Transformations এবং Actions

Spark Streaming Overview

Key Features of Spark Streaming:

Spark Streaming Transformations

Common Spark Streaming Transformations

Example:

Example:

Example:

Example:

Example:

Spark Streaming Actions

Common Spark Streaming Actions

Example:

Example:

Example:

Example:

Conclusion

Promotion

Satt AI

Hi, আমি SATT AI!

Spark Streaming এর Transformations এবং Actions

Spark Streaming Overview

Key Features of Spark Streaming:

Spark Streaming Transformations

Common Spark Streaming Transformations

Example:

Example:

Example:

Example:

Example:

Spark Streaming Actions

Common Spark Streaming Actions

Example:

Example:

Example:

Example:

Conclusion

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!